優點:
缺點:
有可能取代DRAM的NVM
因隨著數據的生成爆炸性地,隨機森林算法需要處理數據集的大小迅速增加,並且可能面臨保持數量飆升數據樣本到main memory的困難。
而現實中龐大的數據集可能首先保存在secondary storage(SSD),透過swap in-and-out between the faster-but-smaller main memory and the slower but-larger secondary storage。
儘管如此,這種解決方案可能不可避免地導致頻繁的數據交換,這可能會嚴重降低隨機森林的構建/訓練階段中的runtime performance。
而頻繁的swapping導不但導致NVM的壽命縮短還會使runtime performance下降以及耗電上升此外發現隨機森林很有可能選取不同子樹但是是同比資料造成不必要的data swapping因此提出MVN-friendly bagging strategy
協調具有NVM特性的機器學習算法的特殊數據access pattern,從而最終將 NVM write minimize使得secondary storage to main memory之間不必要的數據交換和續航優化。
可以積極地重複使用data在bagging process過程中,並且不影響prediction accuracy of a random forest。
Design Concept: Sampled Data Reusing
每次寫入新的round時,random reusing data可以使寫入次數下降,但是會有Wear Un-leavling(寫入的block是不平均的進而導致經常重複寫入的block壽命較短)的問題發生,因此我們的設計理念需要修改。
Marching Based Reusing Policy(MRP)
上述提到的問題透過MRP來解決,選擇一個樞紐將reusing data和random access data拆成兩個部分,而下一次則是將上一次的random access data當作reuse data,樞紐的終止條件為當reuse frame=random frame時也就是上圖中的3rd Round,從結果來看這個方法不但可以降低寫入次數還能使得Wear Leveling,增加block的平均壽命。
每個data區分成70% training data、30% testing data並用testing data的ACC來驗證reuse data不會影響ACC。
首先上圖(Fig. 3)可以看出當reuse ratio越高,write的次數可以下降因為可以減少在main memory與secondary storage之間的data movement。
而上圖(Fig. 4)可以看出當reuse ratio不要超過75%時幾乎可以跟0%有著一樣的ACC。
因許多研究指出[1]random forest may not always be beneficial to the forest
size (e.g., the number of the decision trees).而上圖(Fig. 5)可以看出當reuse ratio不要超過75%時幾乎可以跟0%有著一樣的ACC,即便改變tree size也一樣。
本篇論文使用了NVM-friendly bagging strategy去降低寫入次數及解決Wear Un-leavling的問題,最終此設計最多可節省72%的寫入訪問且幾乎不影響ACC。
$$ 0.72 = \frac{寫入數量當reuse-ratio=0-寫入數量當reuse-ratio=0.75}{寫入數量當reuseratio=0} $$
[1] Thais Mayumi Oshiro, Pedro Santoro Perez, and Jos´e Augusto Baranauskas. How many trees in a random forest? In International workshop on machine learning and data mining in pattern recognition,pages 154–168. Springer, 2012.
[2] Y. T. Ho, C. -F. Wu, M. -C. Yang, T. -Y. Chen and Y. -H. Chang, "Replanting Your Forest: NVM-friendly Bagging Strategy for Random Forest," 2019 IEEE Non-Volatile Memory Systems and Applications Symposium (NVMSA), Hangzhou, China, 2019, pp. 1-6, doi: 10.1109/NVMSA.2019.8863525.